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基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识别 对 
FAST 观测 CRAFTS 数据 的 应 用 研究 
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摘要 : 单 脉 冲 搜 索 作 为 脉冲 星 探测 的 有 力 工具 ， 在 探测 旋转 射电 暂 现 源 以 及 快速 射电 暴 中 


体 识别 已 经 从 早期 启发 式 阐 值 判断 发 展 到 基于 机 器 学 习 自 动 识别 。 


È " 
演 着 重要 角色 。 为 了 从 海量 的 射电 巡天 数据 中 快速 筛选 出 最 有 价值 的 单 脉冲 搜索 候选 体 ， 候 选 


对 于 FAST 观测 ， 研 究 了 


于 机 器 学 习 的 单 脉冲 搜索 候选 体 识别 应 用 到 CRAFTS (the commensal radio astronomy FAST 
survey) 超 宽带 脉冲 星 数 据 的 性 能 表现 。 在 评估 过 程 中 ， 使 用 单 脉 冲 事 件 组 识别 (SPEGID) 和 单 
脉冲 搜索 器 (SPS) 两 类 自动 识别 方法 ， 通 过 7 种 不 同 机 器 学 习 分 类 器 对 CRAFTS 基准 数据 集 / 
生 的 单 脉冲 搜索 候选 体 进行 自动 识别 ， 作 为 对 比 ， 也 使 用 了 启发 式 阔 值 判 断 的 方法 (RRATtrap 


和 Clusterrank)。 结 果 表 明 ，SPEGID 具有 最 好 的 性 能 表现 (最 高 的 Fl-score 值 95.1%、 次 高 的 
召回 率 95.4%、 最 低 的 假 阳 性 率 4.7%), SPS 具有 最 快 的 筛选 速度 (平均 每 小 时 筛选 4010 个 候选 
体 )。 通 过 对 比分 析 结 果 ， 探 讨 了 如 何 基于 FAST 观测 数据 开展 高 效 的 单 脉 冲 搜索 候选 体 识别 。 
关 RE d: 单 脉冲 搜索 ， 候 选 体 识别 ， 机 器 学 习 ;， 脉冲 星 ; FAST; CRAFTS 
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脉 ; 
叶 变换 (FET) 将 时 间 序 列 转化 到 频 域 以 识别 
探测 脉冲 星 ， 这 是 利用 脉冲 星 信号 固有 的 周期 性 来 实现 。 单 脉 
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星 搜 索 方法 主要 分 为 周期 性 搜索 和 单 脉 冲 搜 索 两 大 类 ”。 周 期 性 搜索 通过 快速 傅 里 
周期 性 信号 ”"。 传 统 上 主要 通过 周期 性 搜索 来 
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冲 搜 索 主要 寻找 强 的 、 非 周期 
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的 脉冲 ， 非 常 适合 发 现 周期 性 搜索 中 无 法 发 现 的 孤立 爆发 ”; 


天 文学 


进展 


转 射 电 暂 现 源 (rotating radio transients, RRATs) 和 快速 射电 暴 (fast r 


发 现 。2006 Æ, McLaughlin 等 人 "首先 发 现 了 RRATs， 被 认为 是 一 种 特殊 类 
人 "在 帕克 斯 多 波束 脉冲 


星 。2007 年 ，Lorimer 等 


PMPS) 观测 数据 中 发 现 了 第 一 例 FRB。 


定 的 脉冲 星 巡 天 数据 面 


自 2003 年 Cordes 和 McLaughlin" 
的 应 用 产生 了 海量 候选 体 ， 为 了 从 射 


法 "一 。 单 脉冲 搜索 候选 体 
learning, ML) 自动 识别 "。 


JE AEN REL 


来 引导 搜寻 ， 筛 选 出 最 有 价值 


L i Et 


的 单 脉 ; 


48 


首次 提出 单 脉冲 搜索 探测 脉冲 星 以 来 ， 
巡天 数据 中 快速 第 选 出 最 有 价值 
临 的 候选 体 识别 问题 ， 相 继 提出 了 不 同 的 单 脉冲 搜索 候选 体 识别 方 
识别 已 经 从 早期 启发 式 盖 值 判断 发 展 到 基于 机 器 学 习 (machine 


41 卷 


应 用 单 脉 冲 搜索 方法 导致 了 旋 


adio bursts, FRB) 的 
AL AS Ta a 


EK (Parkes multibeam pulsar survey, 


单 脉冲 搜索 
的 候选 体 ， 基 于 特 


断 的 识别 方法 主要 利用 脉冲 星 所 具有 的 启发 式 特性 
索 候 选 体 。 例 如 : Deneva $ 
贵 源 阵 列 脉冲 星 巡 天 (pulia Arecibo L-band feed array survey, PALFA) 单 脉冲 搜索 ， 


等 人 "通过 对 阿 雷 西 博 


发 现 了 7 颗 新 脉冲 星 。Keane 等 人 "在 PMPS 中 发 现 了 10 颗 RRATs。Burke-Spolaor 4& AP 


在 高 时 间 分 辨 率 宇 骨 


脉冲 星 


中 发 现 了 11 颗 RRATs。 
的 工具 
XE Bi] EL 


的 候选 体 ， 


2015 年 ，Karako-Argaman 4& A" 
RRATtrap， 根 据 候选 体 与 设 定 的 规则 符合 程度 分 配 数值 
区 分 脉冲 星 与 射频 干扰 产生 的 候选 体 ， 在 绿 岸 望远镜 


EKK (high time resolution universer survey, HTRU) 观测 数据 
设计 用 于 探测 脉冲 星 和 RRATs 


通过 只 检查 超过 给 
350 MHz 漂移 扫 


描 巡 天 (Green Bank telescope 350-MHz drift-scan survey, GBT350Drift) 和 绿 岸 北 天 区 巡天 


(Green Bank north celestial cap survey, GBNCC) 的 观测 数据 中 发 现 
Æ, Deneva 等 人 一 开发 Clusterrank 
和 McLaughlin 预测 的 理论 


327 MHz # 
脉冲 星 和 8 颗 RRATs。 


的 数据 处 理 。 


冲 搜 索 候选 体 识别 令 


增长 ， 仅 依赖 人 工 识 别 筛选 已 不 外 
搜索 候选 体 识别 研究 


开始 逐渐 运用 到 单 脉 冲 


别 方法 (以 下 简称 “机 器 学 习 识 别 方法 ? 
工程 ， 构 建 强 有 力 的 特征 以 最 大 限度 区 分 脉 
2016 Æ, Devine 等 人 

器 选 体 ; 
(single-pulse event group identification, SPEGID), 
结合 机 器 学 习 分 类 器 对 PALFA 观测 数据 进行 


选 体 进行 自动 识别 。 
别 ， 实 现 了 自动 化 筛选 


fa Be A 


页 域 的 研究 相对 较 少 。 
EE 满足 数据 的 时 效 需 求 ， 机 器 学 习 等 人 工 御 
领域 。 基 于 机 器 学 习 的 单 脉 ; 
利用 脉冲 星 与 射频 干扰 
通过 机 器 学 习 分 类 器 对 候 


H, 


L LN 


目前 ， 人 工 智能 相关 技术 已 广泛 应 用 在 周期 性 搜索 候选 体 识别 任 
随 着 脉冲 星 巡 天 设备 产生 的 候选 体 数量 呈 指 


BL 


21 Bi RRATs. 2016 


X8 TE RC 1 Ape e VA FS fe TR E 


I| Z£ Ej Cordes 


1 线 ” 符 合 程度 ， 评 判 候选 体 是 脉冲 星 的 
AS KT IW AH (Arecibo 327 MHz drift pulsar survey, AO327) 中 发 现 14 颗 
判断 方法 主要 根据 脉冲 星 的 特性 
有 针对 射频 干扰 构造 规则 进行 过 滤 ， 往 往 会 产生 大 量 的 虚假 候选 体 ， 难 以 适应 大 规模 、 


构建 启发 式 规则 ， 


EM 


在 阿 雷 西 博 


可 能 性 ， 


务 中 一， 而 在 单 脉 


9 能 技术 已 经 
' 搜 索 候选 体 识 


! 星 与 射频 干扰 ， 
首次 将 机 器 学 习 应 用 于 六 


2018 年 ， 同 组 的 Pang 等 


事件 组 Dinge: pulse event group, SPEGs), 


自动 识别 ; 
2018 年 ，Michilli 等 


随后 ，SPEGID 特征 了 
等 人 ™ 设计 了 单 脉 六 


[ 程 被 拓展 到 23 ^7, 
PF 搜索 器 (single-pulse searcher, SPS), 


ial Ly 


H 1| 
AE LLI 


回 有 的 特性 开发 特征 


单 脉 种 搜索 候选 体 识 
了 单 脉冲 事件 组 识别 


构造 18 个 特征 描 i 


述 聚 合 产 生 的 单 脉冲 


并 应 用 到 GB 


TDrift。 男 外 一 方面 ， 


用 5 个 特征 描 


3 期 


聚合 产 
ak ta J 


iE 


500 m 
FAST) 是 


TTA. 


选 体 并 对 其 进行 优先 存储 ， 
高 效 地 区 分 出 脉冲 星 与 射频 干扰 。 


张 彬 ， 


生 的 SPEGs， 并 通过 机 器 学 习 分 
全 天 空 巡 天 数据 (tied-array all-sky survey, LOTAAS) 强 


等 : 基于 机 器 学 习 的 单 脉 冲 搜索 候选 体 识别 对 FAST 观测 CRAFTS ... 


417 


类 器 区 


暂 现 源 、FRB 等 多 科学 目标 观测 


2017 4F 8 
描 巡 天 模式 ， 


据 ” )， 


主要 利用 机 器 学 习 识 别 方法 对 CRAFTS 数据 产生 的 单 
以 寻求 快速 高 效 # 
器 学 习 的 单 脉冲 搜索 候选 体 识别 方法 基本 
SPS) IUE ANB FERT IB 


fit, 


的 候选 体 基 准 数 
对 全 文 进行 总 结 


月 至 
快速 


存储 在 中 


2018 年 5 
连续 地 观测 天 空中 的 多 个 区 域 。 


E| 


FP 会 产生 数 万 到 数 十 万 个 脉冲 星 候选 
频 干 扰 或 宇宙 噪音 引起 的 虚假 候选 体 ”。 
天 文 观测 数据 进行 单 脉冲 搜索 寻找 新 脉冲 星 ， 必 须 快 速 找到 
以 避免 累积 延迟 ， 并 使 用 稳 


J, FAST 使 用 超 宽带 接 
期 间 共 
Lit 317497 个 数据 文件 ， 称 为 CRAFTS 超 宽带 脉冲 星 巡 天 数据 (以 下 简称 “CRAFTS 数 
科学 院 国家 天 文 台 -贵州 师范 大 学 FAST 早期 科学 数据 中 心 。 


分 低频 阵列 (low frequency array, LOFAR) 


FH 


Ed 


干扰 环境 下 的 脉冲 星 与 射频 干扰 。 


径 球 面 射电 望远镜 (Five-hundred-meter Aperture Spherical radio Telescope, 
目前 世界 上 最 灵敏 的 单口 径 射 电 望 远 镜 。FAST“ 多 科学 目 
commensal radio astronomy FAST survey, CRAFTS) 同时 使 
分 子 谱 线 、 
索 在 每 次 24h 巡天 扫描 
些 候选 体 绝 大 多 数 是 射 


标 同时 扫描 巡天 ” (the 
多 个 数字 终端 采集 脉冲 星 、 
Be. Hit, CRAFTS 脉冲 星 搜 
森 ”， 通 过 人 工 诊断 发 现 ， 这 
FAST 这 种 大 规模 射电 
学 价值 的 单 脉 冲 搜索 候 


fz 


脉冲 搜索 候选 体 识别 方法 准确 


H 


对 
H 有 f 上 
健 的 单 


KL (270 ~ 1620 MHz) 运行 漂移 扫 
收集 2760 h 的 脉冲 星 巡 天 数据 ， 


RIE 


本 研究 了 


平 


也 第 选 出 候选 体 的 解决 方案 。 


本 文 结构 安排 如 下 : 


脉冲 搜索 候选 体 的 性 能 表现 进行 记 
第 2 章 介 绍 基于 机 


里 论 ; 


! 别 方法 
并 对 不 同 识别 方法 性 和 


= 


据 集 进行 测试 ， 
结 和 讨论 。 


第 3 章 使 


: (RRATtrap 和 Clusterrank) 对 CRAFTS 单 脉 ; 


机 器 学 习 识 别 方法 (SPEGID 和 
搜索 产生 
EB 表现 以 及 速度 进行 对 比分 析 ; 第 4 章 


2 基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识 别 方法 基本 理论 


利用 射 
周期 性 搜索 或 
时 间 序 列 的 形式 
段 ， 消 色散 是 消 


电 天 文 观测 数据 探测 脉冲 星 通常 分 为 五 个 


阶段 " ， 数据 收 集 、 去 干扰 、 消 色散 、 


脉冲 搜索 、 人 工 诊 断 。 第 一 阶段 ， 


射电 望远镜 终端 收集 至 


的 射电 信号 以 电压 


存储 ; 第 二 
Bc 


阶段 ， 去 干扰 是 消除 或 减轻 射频 干扰 对 
四 阶段 ， 使 


搜索 结果 的 影响 ， 第 三 阶 
j 周 期 性 搜索 或 单 脉冲 搜索 


筛选 出 观测 数据 中 的 脉冲 星 候选 体 ， 第 五 阶段 ， 对 每 个 脉冲 星 候选 体 进行 人 工 诊 断 ， 以 确定 


其 真实 性 。 目 前 


用 并 行 化 实 3 


» FAST 观测 数据 主要 使 


search toolkit) 7 


纲 的 PRESTO (pulsar exploration and 


TRBKkspRRPEXRSEAUS EF PRESTO 的 单 脉冲 搜索 方法 探测 天 体 物理 信 


号 的 数据 流程 图 
和 人 工 诊断 ( 

在 
Clusterrank) 以 


如 图 
图 1 候选 体 识别 模块 中 ， 同 


主要 包括 如 下 步 又 : 
1 所 示 )。 


数据 收集 、 去 


及 机 器 学 » 识别 方法 


的 基本 信息 。 为 


了 比较 不 同 候选 体 识别 方法 区 分 脉冲 与 


时 列 出 了 启发 式 闵 值 判 断 识别 方法 
(SPEGID 和 SPS). 


Ed 


扰 、 消 色散 、 单 脉冲 搜索 、 候 选 体 识别 


(RRATtrap 和 
表 1 给 出 了 以 上 4 类 识别 方法 
与 非 脉冲 星 候选 体 的 能 力 ， 可 以 通过 
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iE: 虚线 框 放 大 区 域 展示 机 器 学 习 识别 方法 两 阶段 数据 处 理 流程 


1 AT PRESTO 的 单 脉 冲 搜索 方法 探测 天 体 物 理 信和 号 流程 图 


表 1 4 类 单 脉冲 搜索 候选 体 识别 方法 的 相关 信息 
类 型 识别 方法 ”相关 文献 。” 观测 数据 身 


性 能 表现 


aur 


AHK ” 假 阳 性 率 
GBT350Drift 

ATt 1 ! : 
自发 式 阔 值 判断 RRATtrap [10] cence S8 999 
Clusterrank [11] A0327 0.7 0.07 

[17] PALFA 0.956 0.02 

机 器 学 习 [18] GBTDrift 0.942 0.02 
SPS [19] LOTAAS 0.986 0.01 


评价 指标 旦 对 性 能 表现 进行 量化 。 候 选 体 识 别 任务 中 ， 我 们 希望 识别 方法 尽 可 能 准确 地 识别 
所 有 脉冲 星 候 选 体 的 同时 ， 最 大 程度 减少 虚假 候选 体 的 产生 。 因 此 ， 衡 量 候选 体 识别 方法 的 
性 能 表现 最 主要 的 评价 指标 是 召回 率 和 假 阳 性 率 ”: 召回 率 量 化 识别 方法 正确 识别 数据 集 
中 脉冲 星 候选 体 的 比例 ， 假 阳性 率 量 化 识别 方法 产生 虚假 候选 体 的 比例 。 最 佳 识 别 方法 具有 
高 召回 率 以 及 低 假 阳 性 率 。F1l-score 及 G-mean 综合 评估 识别 方法 正确 识别 脉冲 星 以 及 产生 
虚假 候选 体 的 能 力 ， 最 均衡 的 识别 方法 具有 高 Fl-score 和 G-mean 值 。 从 表 1 可 知 ， 机 器 学 
习 识别 方法 相 比 启发 式 阔 值 判断 具有 高 召回 率 和 低 假 阳性 率 。 


?常用 的 评价 指标 有 : 准确 率 ， 正 确 分 类 脉冲 星 和 非 脉冲 星 的 数量 占 训练 实例 的 百分比 ， 查 准 率 ， 正 确 分 类 为 脉冲 星 与 被 分 
类 为 脉冲 星 的 实例 数量 比值 ， 召 回 率 ， 正 确 分 类 为 脉冲 星 与 真实 为 脉冲 星 的 实例 数量 比值 ， 假 阳性 率 ， 被 误 判 为 脉冲 星 占 非 脉 
冲 星 的 实例 总 数 百 分 比 ，F1l-score， 查 准 率 和 召回 率 的 加 权 调 和 平均 值 ，G-mean， 召 回 率 和 特异 度 (正确 分 类 为 非 脉冲 星 与 真 
实 为 非 脉冲 星 的 实例 数量 比值 ) 乘积 的 算术 平方 根 。 


BE 
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GRA, SE. 基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识 别 对 FAST 观测 CRAFTS ... 


程 被 称 为 候选 体 识别 。 图 
B0540 十 23 结果 诊断 图 。 基 


] 


' 搜 索 通 常会 为 每 个 观测 生成 一 个 或 多 个 诊断 图 


F PRESTO 的 单 脉 ; 
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， 从 诊断 图 中 分 离 出 脉冲 星 的 过 
2 给 出 通过 PRESTO 对 CRAFTS 数据 单 脉 冲 搜索 探测 到 的 PSR 
搜索 候选 体 识 别 方法 ， 通 过 处 理 单 脉冲 搜 


Z Single pulse_search.py 结果 文件 (记录 每 个 单 脉 冲 事 件 的 色散 值 、 脉 冲 到 达 时 间 、 信 品 


比 、 脉 冲 宽度 )， 实 现 候选 体 的 识别 与 分 类 任务 。 通 常 假 设 脉 } 
在 搜索 过 程 中 从 大 量 虚假 探测 中 脱颖而出 ， 单 脉冲 搜索 候选 体 识 别 方法 被 设计 寻找 这 些 隐 
藏 的 特征 ”。 由 于 脉冲 星 信 号 通常 与 出 现在 一 定 色散 


! 星 信号 具有 显著 特征 ， 可 以 


(dispersion measure, DM) 范围 大 约 相 


同时 间 的 单 脉冲 事件 组 紧密 相关 。 单 脉冲 搜索 候选 体 识别 方法 一 般 先 通过 聚 类 算法 将 出 现 


DM/pc:cm? 


DM/pc:ecm? 


ik: 
JS DM 对 应 的 信 噪 比 大 小 ，c) 一 组 SPE 聚合 为 一 个 各 


100 
90| 7 
80 
70 pr vu ees to 
60 Do = 
0 10 2 30 40 50 
t/s 
a) 
82.5 
77.5 e. 
72.5 ° E 
42.5 430 43.5 440 445 
t/s 
c) 


a) 时 间 与 试验 DM 的 散 点 图 ， 每 个 散 点 对 应 一 个 和 


Rip 


SPEGs 对 应 的 DM 与 信 噪 比 空间 分 布 。 


机 器 学 习 识别 方法 一 般 分 两 个 阶段 对 单 脉冲 搜索 候选 体 自 
过 聚 类 算法 将 相关 单 脉冲 事件 (SPE) 
第 二 阶段 结合 机 器 学 习 算法 ， 创 建 一 个 完全 标记 的 特征 数据 集训 练 多 


放大 区 域 )。 第 一 阶段 通 
后 开发 特征 工程 。 


图 2 


PKS 


在 一 定 DM IET [R] BRL E Y E A RIS] ik SF FF (single-pulse event, SPE) 
(SPEGs); 再 构造 区 分 脉冲 星 与 非 脉 冲 星 候选 体 的 启发 式 规 则 或 开展 特征 
建 的 规则 或 机 器 学 习 分 类 器 对 SPEGs 进行 识别 ， 进 


聚合 成 单 脉 冲 事 件 组 
程 ， 最 后 应 用 构 


而 实现 候选 体 的 分 类 任务 。 


60 
50r 


BA 
AR A 


动 识别 与 分 类 (如 图 


Ds B50 > 80 RP © 


o 
o 


Toom 
odo 


TO 
o 


Kg 


85. 


HE (SPE), X5 SPE 的 信 噪 比 成 正比 ，b) iX 
E4F4H (SPEGs) 时 间 与 DM 空间 分 布 ，d) 一 个 


通过 PRESTO 对 CRAFTS 数据 单 脉 冲 搜 索 探 测 到 PSR B0540 十 23 结果 诊断 图 


1 虚线 
成 单 脉 冲 事件 组 (SPEGs) 


TH 
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41% 


种 机 器 学 习 分 类 器 。 在 第 一 阶段 ，SPEGID 方法 结合 具有 噪声 基于 密度 的 空间 聚 类 算法 


(DBSCAN)"" Xt dl: SPE 聚合 成 任意 形状 SPEGs; 


随后 构造 18 个 特征 四 撒 述 SPEGs。SPS 


方法 采用 Friends-of Friends R% £2 1: 4% 48 408] [8] fl DM BEA KY) SPE 聚合 成 SPEGs; 
过 5 个 特征 四 对 SPEGs 进行 统计 意义 上 的 建 模 来 描述 SPEGs。 在 第 二 阶段 ，SPEGID 77 


通 


YA 


最 


训 


特征 值 将 其 准确 地 映射 到 对 应 的 类 别 


法 选择 数据 挖掘 软件 WEKA 实现 的 6 种 分 类 器 ; 最 后 使 月 
未 标记 的 观测 数据 进行 自动 识别 和 分 类 。 
(GH-VFDT)"" xt SPEGs 进 


终生 成 候选 诊断 图 以 供 人 工 诊断 。 


为 了 实现 机 器 学 习 分 类 器 对 单 脉冲 搜索 候选 体 的 自动 识别 
练 集中 获得 “脉冲 星 ” 的 一 般 模 式 ， 这 是 监督 学 习 的 一 个 应 用 
脉冲 星 的 训练 集中 推断 出 区 分 脉冲 星 与 射频 干扰 的 目标 函数 ”， 该 函数 可 以 根据 观测 数据 
(脉冲 星 、 非 脉冲 星 )。 另 外 ， 在 海量 射电 天 文 观测 数据 


最 佳 分 类 器 (RandomForest) 对 


SPS 方法 选择 最 佳 分 类 器 高 斯 海 灵 格 快速 决策 树 


行 识 别 ， 并 根据 空间 信息 对 标记 为 脉冲 星 SPEGs 进一步 过 滤 ， 


与 分 类 ， 要 求 分 类 器 能 够 从 


是 指 从 标记 为 脉冲 星 与 非 


中 ， 绝 大 多 数 是 射频 干扰 或 宇宙 噪音 引起 的 无 用 数据 ， 仅 有 极 少数 探测 到 脉冲 星 信 号 ， 因 此 
电 天 文 观 测 数据 存在 严重 的 类 别 不 平衡 ”。 而 机 器 学 习 分 类 器 在 类 别 不 平衡 的 数据 集训 练 


射 


时 
数 


行 


， 分 类 器 通常 会 对 多 数 类 别 ( 非 脉冲 星 


M 


不 平衡 处 理 。 之 前 基于 机 器 学 习 的 单 脉 六 


) 进 


行 “ 过 度 训 练 ”， 导 致 训练 的 分 类 器 对 新 的 观测 
据 进 行 分 类 时 ， 分 类 结果 会 偏向 多 数 类 别 ， 致 使 感 兴趣 的 少数 类 别 (脉冲 星 ) 出 现 大 量 误 
判 ”。 为 了 缓解 机 器 学 习 分 类 器 在 不 平衡 数据 集 性 能 表现 较 差 的 问题 ， 须 对 基准 数据 集 进 


搜索 候选 体 识别 方法 的 研究 表明 ，SMOTE 


(合成 少数 群体 过 采样 技术 )” 在 数据 不 平衡 的 处 理 上 优 于 其 他 方法 。 


3 机 器 学 习 识别 方法 对 CRAFTS 数据 的 应 用 和 对 比分 析 


准 
Dy 


在 本 研究 工作 中 ， 我 们 通过 测试 四 类 单 脉冲 搜索 候选 体 识别 方法 对 CRAFTS 数据 的 
应 用 ， 评 估 机 器 学 习 识别 方法 对 FAST 数据 的 整体 性 能 表现 。 首 先 构建 一 个 CRAFTS 基 


数据 集 ;， 然 后 使 用 PRESTOB 对 数据 集 预 处 理 ， 包 括 去 干扰 、 消 色散 和 单 脉冲 搜索 ， 再 
用 机 器 学 习 识 别 方法 (SPEGID! All SPSS) 识别 单 脉冲 搜索 候选 体 ， 作 为 对 比 ， 我 们 也 使 


值 等 信息 ， 并 提出 一 种 新 的 峰值 识别 算法 表征 DM 与 信 噪 比 
为 SPEGs 组 ， 统 计 SPEGs 组 内 的 最 大 信 噪 比 、SPEGs 数 
OSPS 特征 1 一 3 表征 SPEGs 的 加 权 平 均 DM 值 、 峰 值 
{E SPEGs 的 DM 与 信 噪 比 和 脉冲 宽度 曲 


了 启发 式 阔 值 判断 方法 (RRATtrap 加 和 Clusterrank 四 。 为 了 全 面 比较 不 同 机 器 学 习 分 类 


°SPEGID 特征 1—13 表征 单个 SPEGs 信息 ， 包 括 SPEGs 峰值 信 噪 比 、 脉 冲 宽度 、DM 跨度 、DM 与 信 噪 比 曲 线 对 称 


?https:/ /www.cv.nrao.edu/sransom/presto/ 
?https://github.com/dipangwvu/SPEGID 
?https://github.com/danielemichilli/SpS 
*https://github.com/ckarako/RRATtrap 


?https://github.com/juliadeneva/clusterrank 


量 短 信息 


量 等 信息 ， 以 反映 一 致 DM 


宕 噪 比 以 及 对 应 的 脉冲 宽度 


线 的 峰值 位 置 以 及 对 称 性 的 信息 下 


线 的 峰值 ， 特 征 14 一 18 通过 将 一 致 DM 范围 内 的 SPEGs 聚合 


范围 内 的 SPEGs 之 间 的 关联 中。 
;特征 4、5 通过 超额 峰 度 统计 量 ， 表 
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ACER Zr TR P RI 
斯 (GaussianNB) 2 
(RF)™”“、 梯 度 提升 决策 树 (GBDT)” 以 及 多 层 感知 机 (MLP); [IH 
少数 类 (脉冲 星 ) 样本 创建 合成 实例 ， 以 增加 少数 类 的 规模 ， 构 建 了 
F 佑 单 脉 
的 基准 数据 集 包括 823 个 脉冲 星 和 1023 个 非 脉冲 


为 了 六 


建 


RRATtrap 对 CRAFTS 数据 初步 筛选 确认 含有 脉冲 
依 断 中 发 现 广 泛 造成 数 
习 识别 方法 训练 机 器 学 习 分 类 器 须 构 建 一 个 完全 
选 体 产 生 的 每 条 特征 数据 ， 我 们 采用 人 工 标 汶 


Id 


比 对 候选 诊断 图 
HER ( 见 图 2 c))， 


存在 位 于 不 同时 间 的 SPEGs， 则 被 标注 
FE 数据 ， 全 部 标注 为 非 脉 冲 星 。 


选 体 的 每 条 特 生 


( 见 图 2 a), b))， 如 果 SPEGs 对 应 


GRA, SE. 基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识 别 对 FAST 观测 CRAFTS ... 


能 差异 ， 我 们 使 有 
ZE (LR), xc 


H Scikit-learn 库 


Em 
里 


' 搜 索 候选 体 识别 方 法 的 性 能 表现 ， 


A 


Ed 
Fe 


Ba PO ^E AB Ade PAS AY Ee 
人 标注 日 


E 


E. bw 


Ed 


的 DM 满足 ，1) 与 时 间 空 间 
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中 实现 的 7 种 分 类 器 : 高 斯 朴素 贝 叶 


机 (SVM)”、 决 策 树 (DT)”、 随 机 森林 


对 采用 SMOTE 技术 为 
F 衡 的 数据 集 。 
需要 构建 一 个 基准 数据 集 。 我 们 构 
候选 体 ， 其 中 脉冲 星 候 选 体 是 通过 
言 号 的 样本 ， 非 脉冲 星 候 选 体 是 在 人 
干扰 类 型 构成 的 样本 。 此 外 ， 机 器 学 
的 特征 数据 集 。 对 于 基准 数据 集中 候 
下 : 对 于 脉冲 星 候选 体 每 条 特征 数据 
的 形状 呈 纺 


2) 与 信 噪 比 曲 线 呈 高 斯 曲线 ( 见 图 2 d))，3) 上 下 波动 为 2pccm-3? 范围 内 
为 脉冲 星 ， 否 则 标注 为 非 脉冲 星 ， 对 于 非 脉冲 星 候 


3.1 SPEGID 方法 对 基准 数据 集 的 候选 体 自动 识别 与 分 类 


为 了 实现 SPEGID 方法 对 CRAFTS 基准 数据 集 候 选 体 的 自动 识别 与 
照 SPEGID 方法 收集 每 个 候选 体 的 特征 数据 下: 先 
了 根据 SPEGID 的 特征 工程 收集 每 个 SPEGs 
据 ， 每 条 数据 对 应 一 个 SPEGs; 随后 采用 上 述 人 工 标注 
全 标注 SPEGID ii 


SPEGs; 


+ 


通 


最 终 ，27521 个 SPEGs 


被 标记 为 非 脉冲 
特征 数据 集 分 为 i 


A 


个 脉冲 星 SPEGs 和 87898 个 非 脉冲 星 SPEGs (对 应 240 个 脉冲 星 和 260 个 非 脉 ; 
体 ); 测试 集 为 其 余 21749 个 脉冲 星 SPEGs 和 112213 个 非 脉 
冲 星 和 763 个 非 脉 冲 星 候选 体 )。 针 对 训练 集 5 
SMOTE 合成 脉冲 星 SPEGs 样本 ， 构 建 平 衡 的 训练 集 ， 


训练 集 进行 训练 。 


Ed 


FE 数据 集 。 
为 了 研究 不 同 机 器 学 习 分 类 器 对 S 


o 


分 类 ， 


31112 


过 DBSCAN 算法 对 候选 体 聚 类 得 到 


的 特征 值 ， 共 收集 227632 条 特征 数 
数据 的 标准 标 兴 


FE 所 有 数据 ， 构 建 完 
被 标记 为 脉冲 星 ，200111 个 SPEGs 
PEGs 的 分 类 性 能 ， 我 们 将 SPEGID 


| 练 集 和 测试 集 ， 通 过 训练 集训 练 7 


1 机 器 学 习 分 类 器 。 训 练 集 包 括 5772 


meu 


F 星 与 非 脉 冲 星 样本 不 平衡 问题 ， 


! 星 候选 
! 星 SPEGs (对 应 583 个 脉 
采用 
器 在 平衡 


ANKE 


NL 7 种 机 器 学 习 


4 


训练 过 程 


Ph， 采用 交叉 验证 方法 ， 将 


分 类 器 ，1 组 用 了 


Fi 


种 分 类 器 最 佳 的 超 参 数值 。 在 网 格 搜索 中 ， 我 们 为 每 种 


对 所 有 可 能 的 超 参数 组 合 进 
(REL 最后， 使 用 训练 好 的 机 器 学 习 分 类 器 对 测试 外 


y= 


fT 


° https: //scikit-learn.org/stable/index.html 


?SPEGID 方法 收集 特征 数据 时 ，DBSCAN 算法 的 超 参数 取 值 为 : e 邻 域 的 距离 阔 值 取 10， 核 心 对 象 所 需要 的 e 邻 域 的 


F 


FE 本 数 取 12， 其 他 经 验 参数 与 SPEGID 方法 保持 一 致 。 


?GaussianNB 使 


默认 的 超 参数 。LR: I 


切 分 策略 采 


A 


F 估 分 类 器 ， 并 通过 Scikit-learn 的 网 格 搜索 方法 (GridSearchCV) 4 


评估 ， 确 定 表 现 最 佳 的 超 参数 组 
二 进行 识别 与 分 类 ， 并 村 


E 则 化 强度 的 倒数 C 取 18, X 
罚 系数 C 取 10， 核 函数 取 rbf， 核 函数 系数 gamma W 0.1; DT: 树 的 最 大 深 


TTR 


4 组 


训练 集 随 机 分 为 5 组 ， 于 训练 


fr, 


=> 人 


定 每 
器 定义 一 组 超 参数 候选 值 ， 通 过 
[合作 为 分 类 器 的 最 终 超 参数 
民 据 分 类 器 结果 和 


=H AN 


分 类 


拟 牛顿 法 优化 损失 函数 ，SVM: 目标 函数 的 惩 
度 取 12， 叶 子 节点 最 小 样本 数 取 8; RE: 样本 


gini 指数 ， 树 的 最 大 深度 取 8， 最 多 特征 数 取 4， 叶 子 节点 最 小 样本 数 取 4， 树 的 颗 数 取 200; GBD'T: 树 的 


SPEGs 样本 的 人 了 


1) PR 
表明 不 习 


类 


296) 外 ， 
地 实现 了 脉冲 星 
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表 2 


用 


F 衡 处 到 


| 为 脉 ; 


! 星 。2) 除了 SVM H 


天 文学 进展 


可 以 使 更 多 脉冲 星 SPEGs IER 


[标签 计算 性 能 评价 指标 。 
| 出 了 7 种 机 器 学 习 分 类 器 对 SPEGID 测试 集 分 类 的 评价 指标 值 。 可 以 看 到 : 
] SMOTE 技术 得 到 的 平衡 训练 集训 
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有 更 高 的 


其 他 分 类 器 各 项 性 能 指标 值 均 在 80% UE, XU 
与 射频 干扰 的 分 离 。3) 14 种 分 类 器 方法 


有 分类， 也 会 导致 更 多 非 有 
ILI (SVM 在 选择 多 组 超 参 数值 的 情况 下 ， 召 回 率 均 低 了 
明 SPEGID 开发 的 特征 工程 较 好 
Ho LRsmote 


回 率 和 假 阳 性 率 ， 


永 冲 星 SPEGs 被 误 


召回 


| 


率 最 高 ，GBDT 


M LR 假 阳 性 率 最 低 (SVM 分 类 器 出 现 过 拟 合 ， 其 假 阳 性 率 不 具有 对 比价 值 ); GBDT smote 


的 Fl-score 和 G-mean 最 高 ， 表 明 GBDT.mote 均衡 性 最 好 。 总 之 ，SPEGID 方法 应 用 于 基 
， 即 使 选择 简单 分 类 器 模型 (GaussianNB) 都 可 以 取得 


if 


HE 


较 高 评价 指标 值 ， 这 表明 


SPEGID 能 够 较 好 地 完成 CRAFTS 数据 单 脉 冲 搜 索 候选 体 识别 任务 。 


表 2 7 种 机 器 学 习 分 类 器 对 SPEGID 测试 集 分 类 的 性 能 数据 

分 类 器 准确 率 FLYERS ”召回 率 ” 假 阳性 率 Fl-score G-mean 
Gaussian NB 0.944 0.760 0.955 0.058 0.847 0.948 
LR 0.972 0.932 0.890 0.013 0.911 0.937 
SVM* 0.839 0.968 0.012 0.001 0.025 0.114 
DT 0.975 0.963 0.879 0.006 0.919 0.935 
RF 0.990 0.988 0.950 0.002 0.968 0.974 
GBDT 0.990 0.992 0.949 0.002 0.970 0.973 
MLP 0.986 0.966 0.949 0.006 0.958 0.971 
GaussianN Banote 0.933 0.719 0.963 0.072 0.824 0.945 
LRamote 0.939 0.735 0.977 0.068 0.839 0.954 
SVMamnote" 0.841 0.947 0.019 0.000 0.037 0.138 
DT smote 0.980 0.977 0.900 0.004 0.937 0.947 
RF smote 0.989 0.980 0.951 0.004 0.965 0.973 
GBDTsmote 0.990 0.984 0.960 0.003 0.972 0.978 
MLPsmote 0.987 0.959 0.959 0.008 0.959 0.975 


D 


VE: 分 类 器 下 标 smote 表示 SMOTE 技术 了 
器 出 现 过 拟 合 ， 所 有 性 能 数据 不 具有 对 比价 值 。 


Pi Jes RO IE ZA 


站 训练 的 分 类 器 ;* 号 表示 SVM 分 类 


3.2 SPS 方法 对 基准 数据 集 的 候选 体 自动 识别 与 分 类 


最 大 深度 取 5， 最 多 
组 成 ， 激 活 函 数 为 relu， 优 化 器 选择 Adam. 
© SPS 方法 收集 特征 数据 时 ，Friends-of-Friends 的 超 参数 以 及 SPS 方法 使 


据 由 言 息 对 标记 为 脉冲 星 的 候选 体 做 i 


zB 


再 根据 SPS FREI 
工 标 注 数 据 的 标准 对 每 条 数据 进行 手工 标注 
个 SPEGs 被 标记 为 脉 六 


为 了 使 月 
法 收集 每 个 候选 体 的 特征 数据 四: 
E 工 程 收集 每 个 SPEGs 的 特征 值 ， 


FAST 8 


竺 征 数 取 6, 


和 波束 


接收 机 收集 ， 故 未 根据 空间 


的 经 验 参 数 保持 
步 处 理 。 


H SPS 方法 对 CRAFTS 基准 数据 集 的 候选 体 自动 识别 与 分 类 ， 


先 通过 Friends-of-Friends 算法 对 候选 体 聚 类 得 到 SPEGs; 


叶子 节点 最 小 样本 数 取 4， 树 的 颗 数 取 50， 子 采样 取 0.8; MLP 由 


我 们 按照 SPS 77 


共 收 集 90 494 条 数据 ;随后 采用 上 述 人 
E, 构建 完 全 标注 SPS 特征 数据 集 。 最 终 ，14779 


FÆ, 75715 个 SPEGs 被 标记 为 非 脉冲 星 。 同 样 ， 我 们 将 SPS 特征 数 
据 集 分 为 训练 集 和 测试 集 。 训 练 集 包括 2821 个 脉冲 星 SPEGs 和 37896 个 非 脉冲 星 SPEGs 


输入 层 、 隐 藏 层 、 输 出 层 
不 变 。 由 于 CRAFTS 2 


3 期 


(对 应 240 个 


Be 


脉冲 星 和 260 个 非 脉 
37 819 个 非 脉冲 星 SPEGs (对 应 583 个 脉 ; 


ka 集训 练 7 


机 器 学 习 分 类 器 ， 并 通过 网 格 搜索 方法 (GridSearchCV) 确定 每 


超 参数 值 中 ， 测 试 集 评估 分 类 器 的 性 能 表现 


张 彬 ， 等 ;基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识 别 对 FAST 观测 CRAFTS ... 


上 


!' 星 候选 体 )， 测 试 集 为 其 
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tR 11958 个 脉冲 星 SPEGs 和 
Ug RU 763 个 非 脉冲 星 候选 体 )。 然 后 ， 我 们 用 训 


' 分 类 器 最 佳 


o XH SMOTE 数据 不 平衡 处 理 技术 合成 脉冲 星 


SPEGs 样本 ， 再 应 用 7 种 机 器 学 习 分 类 器 在 平衡 的 训练 集 进 行 训练 。 最 后 使 用 训练 好 的 机 


器 学 习 分 类 器 对 测试 集 进行 识别 与 分 类 ; 
标签 ， 计 算 分 类 器 的 性 能 评价 指标 值 。 
了 7 种 机 器 学 习 分 类 器 对 SPS 测试 集 分 类 的 评价 指标 
比 于 不 平衡 训练 集训 练 的 分 类 器 ， 应 用 SMOTE 技 


M gE 


AS ZH 


表 3 


了 召回 


率 ， 也 提高 了 假 阳 


值 均 低 于 50%， 对 于 二 分 类 任务 ， 
造 的 特征 训练 这 两 种 分 类 器 效果 不 佳 ， 它 们 假 阳 性 率 不 


ft, MLPsmote 召回 率 大 幅 提 高 


GBDT) 优 于 另外 4 种 分 类 器 。4) 14 种 不 同 分 类 器 方法 中 ，GBDT,。mwote 有 具 
(如 上 所 述 ，GaussianNB 分 类 器 效果 不 佳 ， 其 召回 


这 样 的 性 能 表现 


至 不 如 


并 根据 每 个 分 类 器 的 分 类 结果 与 SPEGs 样本 人 工 


值 。 可 以 看 到 : 1) 相 
术 得 到 的 平衡 训练 集训 练 的 分 类 器 提高 
性 率 (GaussianNB, LR 在 选择 多 组 超 参 数值 的 情况 下 ， 了 Fl-score 
随机 猜测 ， 表 明 SPS 方法 构 
有 对 比价 值 )。2) 对 于 MLP 分 类 
了 近 0.4。3) 在 各 项 指标 上 ， 基 于 树 的 3 种 分 类 器 (DT, RF, 


率 不 


最 高 的 召回 
【有 对 比价 值 )，GBDT 分 类 器 具有 


sz 
MS 


最 低 的 假 阳 性 率 ，GBDT 的 Fl-score 指标 最 高 ，GBDTswote 的 G-mean 指标 最 高 。 总 之 ， 


SPS 方法 应 用 于 基准 数 
标 值 。 


ER, (AEP IY 3 种 分 类 器 (DT, RF, GBDT) 取得 较 高 评价 指 


表 3 7 种 机 器 学 习 分 类 器 对 SPS 测试 集 分 类 的 性 能 数据 

分 类 器 准确 率 ” 查 准 率 AHX IEX ”Fl-score G-mean 
GaussianNB* 0.253 0.243 0.999 0.983 0.391 0.129 
LR* 0.557 0.329 0.813 0.523 0.468 0.622 
SVM 0.846 0.875 0.417 0.019 0.565 0.639 
DT 0.922 0.910 0.747 0.023 0.821 0.854 
RF 0.933 0.944 0.765 0.014 0.845 0.868 
GBDT 0.939 0.951 0.788 0.013 0.862 0.882 
MLP 0.865 0.896 0.495 0.018 0.638 0.697 
GaussianNBsmote* 0.253 0.243 0.999 0.983 0.391 0.128 
LRamote" 0.566 0.335 0.826 0.516 0.477 0.632 
SVMsmote 0.858 0.703 0.711 0.095 0.707 0.802 
DT smote 0.889 0.727 0.863 0.102 0.789 0.880 
RF smote 0.902 0.759 0.863 0.086 0.808 0.888 
GBDTsmote 0.885 0.699 0.920 0.125 0.795 0.897 
MLPsmote 0.828 0.596 0.886 0.189 0.713 0.847 


ik: 分 类 器 下 标 smote 表示 SMOTE 技术 平衡 后 的 训练 外 


Al LR 分 类 器 效果 不 佳 ， 所 有 性 能 数据 不 具有 对 比价 值 。 


RUAN T AS dE: “号 表示 GaussianNB 


?GaussianNB 使 
罚 系 数 C 取 10， 核 函数 
2， 叶 子 节点 最 小 样本 数 


输入 层 、 隐 藏 层 、 输 出 


默认 的 超 参 数 ;，LR: I 
X rbf， 核 函数 系数 gamma 取 1; DT: 叶子 节点 最 小 样本 数 取 10; RE: 内 部 节点 
取 2， 树 的 颗 数 取 400; GBDT: 叶子 节点 最 小 样本 数 取 10， 树 的 颗 数 取 400， 子 采样 取 0.9; MLP 
zip. WAREN relu， 优 化 器 选择 Adam. 


E 则 化 强度 的 倒数 C 取 5， 采 


拟 牛 顿 法 优化 损失 函数 ，SVM: 


标 函 数 的 惩 


再 分 最 小 样本 数 取 
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X x Xu 


展 


3.3 不同 识别 方法 的 性 能 表现 和 筛选 速度 的 对 比分 析 

为 了 对 比 不 同类 别 识别 方法 在 基准 数据 集中 的 性 能 表现 ， 我 们 也 采用 了 启发 式 闹 值 判断 
方法 (RRATtrap 和 Clusterrank) 对 基准 数据 集 进行 候选 体 识别 。 由 于 局 发 式 闪 值 判断 的 方 
分 类 结果 依赖 候选 体 ” 。 


法 通过 整体 返回 启发 式 分 数 表示 候选 体 是 脉冲 上 
而 机 器 学 习 识 别 方法 分 类 结果 依赖 SPEGs， 且 一 个 候选 体 通常 包含 多 个 SPEGs (Jl. 
a))。 为 了 对 比分 析 不 同类 另 E 能 表现 ， 对 于 SPEGID 和 SPS 分 类 
结果 ， 我 们 规定 每 个 候选 体 中 ， 包 含有 评定 为 脉冲 星 的 SPEGs 被 标记 为 脉 
和 SPS 对 于 候选 体 的 性 能 类 
是 ，SPEGID 和 SPS 的 实验 结果 是 在 完整 特征 数据 集 (未 划分 训练 集 和 测试 
四 种 方法 在 基准 数据 
Hau T ARP ELA AS. 


AAR HB HRY 


以 便 公 平地 比较 
Clusterrank， 我 1 


星 以 及 产生 虚假 人 


表 4 列 


和 SPS 对 于 SPEGs 


民选 体 


中 标注 结果 ， 


计算 SPEGID 


I 识别 方法 在 候选 体 中 的 怕 


的 表现 ， 我 人 


行 对 比分 析 。 


的 1 


HE 


意味 着 基准 数据 集中 的 绝 大 多 数 脉 


SPS 


HR iru HY 
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H [n 


有 较 高 的 假 阳 性 率 ， 预 示 着 识 
K (97.7%) 和 最 高 的 假 阳 1 
与 SPS 表现 出 与 基于 SPEGs 结果 相似 的 召回 
(SPS 从 9.9% F 46.1%, SPEGID 从 0.1% 到 4.7%); 这 种 假 阳 
为 脉冲 星 SPEGs 分 布 在 大 量 的 候选 人 人 
阳性 率 仅 有 4.7%， 远 远 低 于 
过 9596, KIH SPEGID 取得 了 最 好 的 性 


N 


y 


准 数据 


这 主要 是 因 


集 ，4 


信 噪 比 (S/N) 空间 独特 的 特征 


类 识别 方法 
为 ” SPEGID 方法 开发 的 特征 
区 分 脉 六 


ARE 
AR 


pa 
ri 


] 选 择 局 发 式 


的 概率 ， 所 以 


中 的 性 能 表现 。 对 于 


~ 


pa 
ri 


RA BU [ELA 
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Z] 


2 


! 星 ， 和 否则 标记 


据 。 值 得 注意 的 


= 


) 测试 结果 ， 
Wit RRATtrap, 


! 星 信号 被 了 


rH 
o 


别 结果 中 包含 大 量 的 虚假 
生 率 (60.396). 2) 用 候选 体 衡 
率 。 然 而 ， 基 于 


FE 能 数据 (高 召 
有 相似 的 召回 率 ， 仅 SPEGID 方法 取得 相对 较 低 的 假 阳性 
昌 出 脉冲 星 在 DM 与 时 
Fh 星 与 射频 干扰 。 总 之 ， 对 于 CRAFTS 基准 数据 集 ， 
过 对 比 表 1 和 表 4 


H 


因为 F1-score 综合 衡量 了 识别 方法 
国 值 判断 方法 


具有 最 高 Fl-score {18 AY Ba] (A 
卓 合 轧 对 应 的 性 能 数据 进行 对 比分 析 ， 对 于 机 器 学 习 识 别 方法 ， 同 样 选择 具有 最 高 Fl-score 
值 的 机 器 学 习 分 类 器 加 进 


出 了 4 类 识别 


口 


[- 确 识 别 脉冲 


方法 对 于 候选 体 的 性 能 数据 ， 作 为 对 比 ， 最 后 两 行 汇总 了 SPEGID 
能 数据 。 可 以 看 到 : 1) 4 类 方法 都 表现 出 较 高 的 召 


率 (90% 以 上 )， 


E 


里 


性 能 表 


E 确 识别 ， 同 时 ，RRATtrap, Clusterrank, 
医 选 体 。Clusterrank 表现 出 


现时 ，SPEGID 


候选 体 的 假 阳 性 率 显 著 增 加 
性 率 增加 表明 ， 被 错误 归 类 
3) SPEGID 在 多 个 指标 取得 最 好 的 分 数 ， 且 假 
他 3 种 方法 。 同 时 ，SPEGID 的 Fl-score、G-mean 指标 超 
率 、 低 假 阳 性 率 )。 对 


FT CRAFTS 基 


程 ， 能 很 好 地 挖 


SPEGID 取得 了 最 好 性 能 表现 ， 显 著 优 于 其 他 3 类 方法 。 此 外 ， 


果 发 现 ， 与 


其 他 射 


已 望远镜 相 比 


1620 MHz), fH 


阳性 率 ( 见 表 4)， 这 表明 CRAFTS 数据 可 能 会 包含 有 大 量 类 似 于 脉 六 


“RRATtrap REDA 1 MIAN (6, 5, 4, 3) 的 组 合 以 及 打 
Jr (EL. (0.5, 0.4, 0.25, 0.125) ÆT 


取 0.9 410.8. Exft 


“RRATtrap 阔 值 组 合 取 打 分 为 6 的 数量 大 


不 进行 Bonferroni KUEN RIAA. 


9SPEGID 选择 进行 SMOTE 数据 不 平衡 处 


分 为 6 


( 见 表 1), CRAFTS 数据 覆盖 更 
H 4 类 识别 方法 对 CRAFTS 数据 识别 单 脉冲 搜索 


x 


D, 


^am 


[n] RU 


通 


的 结 


广泛 的 频率 范围 (270 ~ 
吴 选 体会 表现 出 更 高 的 假 


F. Ais 3 
等 


里 的 GBDT 分 类 器 ，SPS 选择 未 进 


& Bonferroni 校 了 


E 进 


行 组 合 。 


于 3, Clusterrank 选择 R? 值 大 于 


Fh 星 信号 的 射频 干扰 数 


的 数量 在 (2, 3, 4, 6) 以 上 ，Clusterrank 对 R? fü 


FAT 0.9、 离 群 点 判断 闻 值 取 0.25、 


fr SMOTE 数据 不 平衡 处 理 的 GBDT 
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据 。 针 对 CRAFTS 数据 的 假 阳 性 率 较 高 的 问题 ， 建 议 未 来 收集 CRAFTS 数据 中 代表 性 的 
射频 干扰 样本 ， 并 进行 针对 性 的 时 域 / 频 域 分 机， 挖掘 消除 射频 干扰 的 有 效 特征 ， 以 减少 虚 


假 候选 体 对 搜索 结果 的 影响 ， 从 而 降低 人 工 诊 断 工作 量 和 候选 数据 存储 压力 。 


表 4 4 类 识别 方法 对 于 候选 体 的 性 能 数据 


方法 准确 率 AWEK HEK PHE Fl-score — G-mean 
RRATtrap 0.848 0.774 0.934 0.221 0.847 0.853 
Clusterrank 0.657 0.568 0.977 0.603 0.718 0.622 
SPEGID 0.953 0.949 0.954 0.047 0.951 0.953 
SPS 0.717 0.612 0.948 0.461 0.744 0.715 
SPEGIDspEGs 0.994 0.991 0.959 0.001 0.975 0.979 
SPSspEGs 0.903 0.643 0.914 0.099 0.755 0.907 


注 : 下 标 SPEGs 表示 2 类 机 器 学 习 识 别 方法 对 于 SPEGs 的 性 能 数据 。 


最 后 ， 我 们 研究 了 4 类 识别 方法 筛选 单 脉冲 搜索 候选 体 的 运行 速度 四。 一 般 来 说 ， 处 理 


H 


每 个 候选 体 的 时 间 随 候选 体 中 单 脉 冲 事 件数 (SPE) 增加 而 增 大 。 ee a e 
HIRIE TRE, RITI A ie 4 类 方法 对 基准 数据 集中 脉冲 星 候选 体 筛选 所 花费 的 
时 间 。 值 得 注意 的 是 ， 测 试 中 SPEGID 和 SPS 方法 仅 记 录 提 取 特 征 所 花费 的 时 间 ， 并 未 统 
计 人 工 标注 特征 数据 集 以 及 训练 机 器 学 习 分 类 器 所 花费 的 时 间 。 不 同 识别 方法 平均 每 小 时 


ii VERE BEN SPS: 4010, SPEGID: 51, Clusterrank: 147, RRATtrap: 112， 如 图 3 所 示 


, 


RRATtrap 与 SPEGID 时 间 受 候选 体 中 单 脉冲 事件 数 的 影响 很 明显 ， 而 Clusetrrank 和 SPS 
时 间 并 没有 随 事件 数 增加 而 发 生 明 显 的 变化 。 总 的 来 说 ，SPS 具有 最 快 筛选 速度 ， 且 时 间 差 
Ee m qu unc qe ML mns 


造 峰 值 识 别 算法 ， 检 验 DM 与 信 噪 比 曲 线 是 否 存 在 峰值 ， 导 致 其 具有 较 快 的 速度 。 


— RRATtra 
800 p 
--: Clusterrank 
— SPEGID 
600 ==- SPS 
E 
~ 400 
200 
0 1 LT. ee EE a eg ee 
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 x10 


单 脉冲 事件 数 


图 3 ”4 类 识别 方法 随 候 选 体 中 单 脉冲 事件 数 增加 用 时 的 趋势 


9 本 次 测试 硬件 条 件 : Intel i7-6700 CPU. NVIDIA GTX 1080 Ti GPU, 16 GB 内 存 ， 操 作 系 统 是 Ubuntu 18.04. 
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本 文 研究 了 基于 机 器 学 习 的 单 脉冲 搜索 候选 体 识别 方法 (SPEGID, SPS) 应 用 到 


CRAFTS 超 宽 带 脉冲 星 巡 天 数据 的 诉 


包括 CRAFTS 数据 初步 得 选 得 到 的 脉 ; 
法 的 特征 工程 ， 收 集 每 个 候选 体 特 征 


SPEGID 取得 了 最 好 性 能 表现 (高 召回 


体 识 别 。 


扰 的 目标 函数 实现 候选 体 的 识别 与 分 类 。 启 发 式 冰 


E 能 表现 以 及 篇 选单 脉冲 搜索 候选 体 的 速度 ; 
对 比 ， 也 使 用 了 启发 式 阔 值 判断 方法 (RRATtrap, Clusterrank)。 首 先 构 建 一 个 基准 数据 集 ， 
' 星 以 及 非 脉冲 星 候选 体 ， 然 后 根据 机 器 学 习 识 别 方 
值 ， 逐 条 进行 人 工 标注 ， 并 将 特征 数据 分 为 训练 集 和 测 
试 集 ， 用 训练 集训 练 7 种 机 器 学 习 分 类 器 ， 测 试 集 研 究 分 类 器 的 性 能 表现 。 同 时 针对 训练 
集中 脉冲 星 与 非 脉冲 星 样本 不 平衡 问题 ， 采 用 了 SMOTE 数据 不 平衡 处 理 技术 。 结 果 表 明 
率 、 低 假 阳 性 率 )，SPS 具有 最 快 科 选 速度 。 

根据 对 比分 析 结 果 ， 我 们 讨论 未 来 如 何 对 FAST 观测 数据 开展 高 效 的 单 脉冲 搜索 候选 
总 之 ， 单 脉冲 搜索 候选 体 识别 两 种 模式 都 是 通过 构建 最 大 限度 区 分 脉冲 星 与 射频 干 


EX 


站 判断 方法 


一 般 仅 根据 脉冲 星 在 DM 与 


时 间 和 信 噪 比 (S/N) 空间 的 特点 ， 构 建 启 发 式 规则 识别 候选 体 ， 导 致 其 仅 能 识别 有 限 的 脉 


"m, 


不 能 有 效 过 滤 射 频 干扰 。Aggarwal AWARI: 不 正确 的 DM 值 、 不 正确 的 
匹配 滤波 值 、 观 测 数据 出 现在 主 波 束 的 位 置 等 因素 ， 往 往 会 导致 探测 到 的 脉冲 星 信 噪 比 出 


现 损失 四 。 同 时 ， 
难 找到 一 套 有 效 


普遍 适用 的 


脉冲 星 信号 在 强度 、 宽 度 以 及 轮廓 等 方面 会 表现 出 显著 差异 ”。 因 此 ， 很 
启发 式 规 则 区 分 脉冲 星 与 射频 干扰 。 而 机 器 学 习 识 别 方法 通 


常 在 完全 标注 的 特征 数据 集 上 进行 训练 ， 训 练 过 程 中 同时 学 习 了 脉冲 星 和 射频 干扰 的 特点 ; 
所 以 ， 机 器 学 习 识别 方法 在 识别 脉冲 星 以 及 去 除 射 频 干 扰 方面 均 表 现 出 良好 的 性 能 。 此 外 ， 


考虑 到 机 器 学 习 识别 方法 是 一 个 循环 迭代 过 程 ， 包 括 分 析 


分 类 结果 、 增 加 或 修改 数据 、 更 新 


分 类 器 、 应 用 分 类 器 以 及 重复 上 述 步骤 ” ， 相 信 随 着 训练 数据 的 积累 ， 机 器 学 习 识别 方法 


的 性 能 会 不 断 提高 。 因 此 ， 对 于 FAST 观测 数据 中 的 单 脉 


习 识别 方法 自动 识别 与 分 类 。 


另外 值得 注意 的 是 ， 最 近 深 度 学 习 也 开始 应 月 
Connor 和 Van Leeuwen 提出 使 用 树 状 深度 神 


别 与 分 类 ; Agarwal EA J 
体 诊 断 图 进行 实时 分 类 ; 


FAST 观测 数据 区 别 于 其 他 射 日 


别 数据 处 
致谢 


中 的 注意 事项 。 


感谢 审 稿 人 对 文章 提出 的 记 


HR FETCH 1 
刘 艳 玲 等 人 包 通 过 卷 积 神经 网 络 
冲 星 与 FRB 分 类 。 在 后 续 的 研究 中 ， 我 们 会 进一步 分 析 记 


外 望远镜 观测 数据 的 独 有 特征 


| 搜索 候选 体 ， 建 议 选择 机 器 学 


有 到 单 脉 冲 搜索 候选 体 识别 工作 中 。 例 如 ， 
经 网 络 对 单 脉冲 搜索 候选 体 诊断 图 进行 识 
[ 具 对 ASKAP 和 Parkes 数据 的 单 脉 冲 搜索 候选 
自动 识别 候选 体 诊 断 图 ， 实 现 脉 
128552] (包括 深度 学 习 ) 应 用 了 
以 及 CRAFTS 数据 在 候选 体 识 


FAST (500 米 口径 球面 射电 望远镜 ) 数据 基础 上 完成 。FAST 是 | 


© 


F 论 意见 和 建议 ， 使 得 文章 质量 有 了 显著 的 提高 。 作者 


中 国 科 学 院 国 家 天 文 台 运 


? 单 脉 冲 搜索 候选 体 识别 实践 表明 ， 信 品 比 低 的 脉冲 星 信号 更 容易 被 各 种 候选 体 识别 方法 错误 识别 。 
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Application of Single-Pulse Search Candidate Identification 
Based on Machine Learning to FAST Observation 
CRAFTS Data 


ZHANG Bin! 2:34, YOU Shan-ping!?^, XIE Xiao-yao-?4^, YU Xu-hong!?^, LIANG Nan!'?4 


(1. Key Laboratory of Information and Computing Science Guizhou Province/School of Cyber Science 
and Technology, Guizhou Normal University, Guiyang 550001, China; 2. School of Mathematical Sci- 
ences, Guizhou Normal University, Guiyang 550001, China; 3. NAOC-GZNU FAST Early Science Data 
Center, Guiyang 550001, China; 4. Joint Center for FAST Sciences Guizhou Normal University Node, 
Guiyang 550001, China) 


Abstract: As a powerful tool for pulsar detection, single-pulse search plays an important 
role in detecting rotating radio transient sources and fast radio bursts. In order to quickly 
screen out the most valuable single-pulse search candidates from massive radio survey data, 
candidate identification has developed from early heuristic threshold judgment to automatic 
identification based on machine learning. For FAST observations, the performance of ma- 
chine learning-based single-pulse search candidate identification applied to the commensal 
radio astronomy FAST survey (CRAFTS) ultra-wideband pulsar data was studied. In the 
evaluation process, two automatic recognition methods, single pulse event group recognition 
(SPEGID) and single pulse search device (SPS), were used to automatically identify the 
single-pulse search candidates generated by the CRAFTS benchmark dataset through seven 
different machine learning classifiers. For comparison, heuristic threshold judgment methods 
(RRATtrap and Clusterrank) are also used. The results showed that SPEGID had the best 
performance (highest Fl-score 95.1%, next highest recall 95.4%, lowest false positive rate 
4.7%), and SPS had the fastest screening speed (an average of 4 010 candidates per hour). 
By comparing the results of the analysis, how to carry out efficient work based on FAST 


observation data is discussed single-pulse search candidate identification. 


Key words: single-pulse search; candidate identification; machine learning; pulsar; FAST; 
CRAFTS 


